草庐IT

LLM 评估

全部标签

LLM系列 | 19 : Llama 2实战(上篇)-本地部署(附代码)

简介小伙伴们好,我是《小窗幽记机器学习》的小编:卖热干面的小女孩。紧接前文:万字长文细说ChatGPT的前世今生,后续会尝试以理论+实践的方式逐步对主流的各大LLM进行实测和汉化。今天这篇关于Llama2的小作文其实比较长,所以分为上下两篇,上篇主要介绍Llama2的基本情况和基于官方模型实测Llama2在中英上的效果,包括单轮和多轮对话。本文作为上篇,整个实验过程使用的模型是官方发布的Llama2模型,包括基座模型和经过RLHF的Chat模型。下篇则主要介绍如何用中文语料对Llama2的基座模型进行微调并实测微调后模型的效果。感兴趣的小伙伴,可以关注下!本文实验完整代码获取请前往《小窗幽记机

LLM各层参数详细分析(以LLaMA为例)

网上大多分析LLM参数的文章都比较粗粒度,对于LLM的精确部署不太友好,在这里记录一下分析LLM参数的过程。首先看QKV。先上transformer原文也就是说,当h(heads)=1时,在默认情况下,WiQW_i^QWiQ​、WiKW_i^KWiK​、WiVW_i^VWiV​都是2维方阵,方阵维度是dmodel×dmodeld_{model}\timesd_{model}dmodel​×dmodel​.结合llama源码(https://github.com/facebookresearch/llama/blob/main/llama/model.py)classModelArgs:dim:

人工智能大模型(LLM)的核心能力、具体的应用场景和具体的落地步骤

人工智能大模型(LLM)的核心能力、具体的应用场景和具体的落地步骤文章目录人工智能大模型(LLM)的核心能力、具体的应用场景和具体的落地步骤I.人工智能大模型(LLM)的核心能力1.语言建模能力2.零样本学习能力3.上下文感知能力4.文本生成能力5.多语言支持能力6.高效推断能力7.交互式学习能力8.强大的预测能力II.大模型的核心能力的具体的应用场景和具体的落地步骤1.语言建模能力的应用场景和落地步骤2.零样本学习能力的应用场景和落地步骤3.上下文感知能力的应用场景和落地步骤4.文本生成能力的应用场景和落地步骤5.多语言支持能力的应用场景和落地步骤6.高效推断能力的应用场景和落地步骤7.交互

LLMs:《A Survey on Evaluation of Large Language Models大型语言模型评估综述》理解智能本质(具备推理能力)、AI评估的重要性(识别当前算法的局限性+设

LLMs:《ASurveyonEvaluationofLargeLanguageModels大型语言模型评估综述》翻译与解读导读:该文章首先介绍了人工智能(AI)对机器智能的专注,并探讨了评估AI模型的方法。随后,重点介绍了大语言模型(LLMs)的背景和特点,以及它们在自然语言处理、推理、生成等各类任务中的表现。文章还详细探讨了现有的评估基准和评估方式,包括自动评估和人工评估。在总结部分,突出了LLMs在不同任务中的成功与失败案例,并提出了未来评估LLMs的挑战与机遇,包括设计AGI基准、完整行为评估、鲁棒性评估、动态演进评估、可信度评估等。该文章为评估和提升AI模型提供了全面概述和指导。LL

使用免费负载生成器swingbench对oracle数据库进行压力测试(测试Oracle的功能或评估性能)

1.Swingbench简介Swingbench是一个免费负载生成器(和基准测试),旨在对Oracle数据库进行压力测试。目前最新版本Swingbench2.6。SwingBench由负载生成器,协调器和集群概述组成。该软件可以生成负载并绘制交易/响应时间图表。Swingbench可用于演示和测试技术,例如实际应用程序集群,在线表重建,备用数据库,在线备份和恢复等。SwingBench附带的代码包括6个基准,OrderEntry,SalesHistory,TPC-DSLike,JSON,CallingCircle和StressTest…整个框架是用Java开发的,因此可以在各种平台上运行。要运

解密Prompt系列16. LLM对齐经验之数据越少越好?LTD & LIMA & AlpaGasus

LLMAgent中间插个队,总结下指令微调、对齐数据相关的方案,已经凑够7篇论文可以召唤神龙啦!论文都是以优化指令样本为核心,Data-Centric的观点比较一致:指令微调也就是对齐阶段的数据质量>>数量,少量+多样+高质量的对齐数据,就能让你快速拥有效果杠杠的模型。注意以上三者是充分必要关系,不是说数据越少越好,是三者的有机统一。如果你对指令微调还不甚了解,建议先看看下解密Prompt系列4.升级InstructionTuning。当前对指令微调部分的普遍认知有两个思路抽象派:把模型输出和人类偏好进行对齐务实派:赋予模型任务指令的理解和完成能力两个思路其实殊途同归,重心落在任务+对齐,既基

隐私侵犯的类型和来源:评估和预防

作者:禅与计算机程序设计艺术“保护个人信息”是当前全球IT行业面临的主要挑战之一,也是国际上新兴市场对信息安全的要求。由于个人信息在日益成为主流的数字经济领域越来越重要,“数据主权”理念开始受到社会各界的广泛关注。无论是在消费者、商家、服务提供者、组织机构等不同方面,都在提出应对“数据主权”这一现代化需求的共识。在这一背景下,隐私欺诈和个人信息泄露等种种现象屡见不鲜,如何有效地保障个人信息的安全尤为重要。那么,什么样的隐私违法行为算是“敏感”的呢?又该如何预防个人信息安全风险,避免“造成严重后果”?2.基本概念术语说明2.1数据主权数据主权意味着“每个个体(个人)拥有对自己数据的所有权”。换句

LangChain 本地化方案 - 使用 ChatYuan-large-v2 作为 LLM 大语言模型

一、ChatYuan-large-v2模型ChatYuan-large-v2是一个开源的支持中英双语的功能型对话语言大模型,与其他LLM不同的是模型十分轻量化,并且在轻量化的同时效果相对还不错,仅仅通过0.7B参数量就可以实现10B模型的基础效果,正是其如此的轻量级,使其可以在普通显卡、CPU、甚至手机上进行推理,而且INT4量化后的最低只需400M。v2版本相对于以前的v1版本,是使用了相同的技术方案,但在指令微调、人类反馈强化学习、思维链等方面进行了优化,主要优化点如下所示:增强了基础能力。原有上下文问答、创意性写作能力明显提升。新增了拒答能力。对于一些危险、有害的问题,学会了拒答处理。新

个人信息安全影响评估流程

声明本文是学习GB-T39335-2020信息安全技术个人信息安全影响评估指南.而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们个人信息安全影响评估流程5.1必要性分析5.1.1概述个人信息安全影响评估可用于合规差距分析,也可以用于超越合规目的的自检。因此启动个人信息安全影响评估的必要性,取决于组织的个人信息安全目标,组织可根据实际的需求选取需要启动评估的业务场景。5.1.1合规差距分析5.1.1.1概述当组织定义的个人信息安全目标为符合相关法律、法规或标准的基线要求时,则个人信息安全影响评估主要目的在于识别待评估的具体个人信息处理活动已采取的安全控制措施,与相关法律、法规